Mạng nơ ron tích chập là gì? Các công bố khoa học về Mạng nơ ron tích chập

Mạng nơ-ron tích chập (CNNs) là một loại mạng nơ-ron nhân tạo, thiết kế để xử lý dữ liệu dạng lưới như hình ảnh. CNNs bao gồm các lớp: lớp tích chập trích xuất đặc trưng, lớp phi tuyến áp dụng hàm kích hoạt, lớp pooling giảm kích thước đặc trưng, và lớp kết nối đầy đủ dùng cho phân loại. CNNs tối ưu hóa bộ lọc qua huấn luyện, giúp thực hiện nhận diện hình ảnh, xử lý ngôn ngữ tự nhiên và thị giác máy tính. CNNs mang lại hiệu quả vượt trội trong nhiều ứng dụng nhờ khả năng học đặc trưng và tính toán nhanh chóng.

Giới thiệu về Mạng Nơ-ron Tích Chập (Convolutional Neural Networks - CNNs)

Mạng nơ-ron tích chập (CNNs) là một loại của mạng nơ-ron nhân tạo, được thiết kế đặc biệt để xử lý dữ liệu có dạng lưới, chẳng hạn như hình ảnh. CNNs đã trở thành một công cụ cực kỳ hiệu quả trong lĩnh vực xử lý ảnh, nhận dạng hình ảnh, và nhiều ứng dụng khác trong thị giác máy tính.

Cấu trúc của Mạng Nơ-ron Tích Chập

CNNs thường bao gồm một chuỗi các lớp khác nhau, mỗi lớp chịu trách nhiệm thực hiện một chức năng cụ thể:

  • Lớp tích chập (Convolutional Layer): Đây là lớp cốt lõi của CNNs, được sử dụng để trích xuất các đặc trưng từ dữ liệu đầu vào. Lớp này sử dụng các thuật toán tích chập để quét qua hình ảnh và phát hiện các đặc điểm như cạnh, góc, và nhiều chi tiết khác.
  • Lớp phi tuyến (Non-linearity Layer): Thường được thực hiện bằng hàm kích hoạt như ReLU (Rectified Linear Unit). Lớp này giúp mạng nơ-ron học được các mối quan hệ phi tuyến trong dữ liệu.
  • Lớp pooling (Pooling Layer): Lớp này giảm kích thước không gian của các đặc trưng đã trích xuất, giúp giảm lượng tính toán và kiểm soát hiện tượng overfitting.
  • Lớp kết nối đầy đủ (Fully Connected Layer): Trong lớp này, các nơ-ron được kết nối hoàn toàn với tất cả nơ-ron ở lớp trước. Đây thường là các lớp cuối cùng sử dụng để kết hợp các đặc trưng đã trích xuất và thực hiện phân loại.

Cơ chế Hoạt động của CNNs

CNNs học cách tối ưu hóa các bộ lọc thông qua quá trình huấn luyện. Bộ lọc bắt đầu bằng cách tạo ra các mẫu đầu vào ngẫu nhiên, sau đó thông qua quá trình ngược dòng (backpropagation) và tối ưu hóa trọng số, mạng học cách điều chỉnh bộ lọc để trích xuất các đặc điểm hữu ích nhất phục vụ cho tác vụ cụ thể.

Ứng dụng của Mạng Nơ-ron Tích Chập

Mạng CNN hiện nay đóng vai trò quan trọng trong nhiều lĩnh vực:

  • Nhận diện hình ảnh: CNNs được sử dụng rộng rãi trong các nhiệm vụ nhận dạng đối tượng, phân loại hình ảnh, và phát hiện khuôn mặt.
  • Xử lý ngôn ngữ tự nhiên (NLP): Các mô hình CNN cũng được áp dụng trong phân loại văn bản, phân loại ngữ nghĩa và các tác vụ khác trong NLP.
  • Thị giác máy tính: Trong ngành công nghiệp xe tự hành, CNN rất quan trọng trong xử lý hình ảnh từ camera gắn trên xe để phát hiện và phân tích cảnh quan đường đi, các vật thể xung quanh.

Kết luận

Mạng nơ-ron tích chập đã chứng minh hiệu quả mạnh mẽ trong nhiều ứng dụng khác nhau, đặc biệt là trong xử lý hình ảnh và thị giác máy tính. Với khả năng học đại diện đặc trưng mạnh mẽ và hiệu quả tính toán, CNN vẫn tiếp tục là một trong những lĩnh vực nghiên cứu nóng hổi và ứng dụng rộng rãi trong trí tuệ nhân tạo và học sâu.

Danh sách công bố khoa học về chủ đề "mạng nơ ron tích chập":

Mạng Nơ-ron Tích Chập Sâu và Nơ-ron Tái Kết Nối LSTM cho Nhận Diện Hoạt Động Đeo Được Đa Mô Đun Dịch bởi AI
Sensors - Tập 16 Số 1 - Trang 115

Nhận diện hoạt động con người (HAR) thường được giải quyết bằng cách sử dụng các đặc trưng kỹ thuật được thu thập thông qua các quy trình heuristics. Nghiên cứu hiện tại cho thấy rằng các mạng nơ-ron tích chập sâu (CNN) rất phù hợp để tự động hóa quá trình trích xuất đặc trưng từ các dữ liệu cảm biến thô. Tuy nhiên, các hoạt động của con người bao gồm các chuỗi chuyển động phức tạp, và việc nắm bắt động lực tạm thời này là rất quan trọng cho việc nhận diện hoạt động thành công. Dựa trên sự thành công gần đây của các mạng nơ-ron tái kết nối cho các lĩnh vực chuỗi thời gian, chúng tôi đề xuất một khung sâu tổng quát cho nhận diện hoạt động dựa trên các đơn vị tích chập và đơn vị LSTM, mà: (i) phù hợp cho các cảm biến đeo được đa mô đun; (ii) có khả năng thực hiện bố hợp cảm biến một cách tự nhiên; (iii) không yêu cầu kiến thức chuyên môn trong việc thiết kế các đặc trưng; và (iv) mô hình hóa một cách rõ ràng động lực tạm thời của các đặc trưng kích hoạt. Chúng tôi đánh giá khung của mình trên hai tập dữ liệu, một trong số đó đã được sử dụng trong một thách thức nhận diện hoạt động công cộng. Kết quả cho thấy khung của chúng tôi vượt trội hơn các mạng nơ-ron không có hồi tiếp đang cạnh tranh trên tập dữ liệu thách thức với mức trung bình 4%; vượt hơn một số kết quả đã báo cáo trước đây lên đến 9%. Kết quả của chúng tôi cho thấy rằng khung có thể được áp dụng cho các mô hình cảm biến đồng nhất, nhưng cũng có thể bố hợp các cảm biến đa mô đun để cải thiện hiệu suất. Chúng tôi xác định ảnh hưởng của các siêu tham số kiến trúc chủ chốt đối với hiệu suất nhằm cung cấp cái nhìn về việc tối ưu hóa chúng.

#Nhận diện hoạt động con người #mạng nơ-ron tích chập sâu #mạng nơ-ron hồi tiếp LSTM #cảm biến đeo được #xử lý đa mô đun
Phân loại COVID-19 trong hình ảnh X-quang ngực bằng mạng nơ-ron tích chập sâu DeTraC Dịch bởi AI
Springer Science and Business Media LLC - - 2021
Tóm tắt

Hình ảnh X-quang ngực là kỹ thuật chẩn đoán hình ảnh đầu tiên đóng vai trò quan trọng trong chẩn đoán bệnh COVID-19. Nhờ vào sự sẵn có cao của các tập dữ liệu hình ảnh được chú thích quy mô lớn, đã đạt được nhiều thành công lớn trong việc sử dụng mạng nơ-ron tích chập (CNN) cho nhận diện và phân loại hình ảnh. Tuy nhiên, do sự hạn chế về khả năng tiếp cận các hình ảnh y tế được chú thích, việc phân loại hình ảnh y tế vẫn là thách thức lớn nhất trong chẩn đoán y tế. Nhờ có học chuyển giao, một cơ chế hiệu quả có thể cung cấp giải pháp hứa hẹn bằng cách chuyển giao kiến thức từ các nhiệm vụ nhận diện đối tượng chung sang các nhiệm vụ đặc thù trong miền. Trong bài báo này, chúng tôi xác thực và giới thiệu một mạng CNN sâu, gọi là Phân tách, Chuyển giao và Tổng hợp (DeTraC), cho việc phân loại hình ảnh X-quang ngực bệnh COVID-19. DeTraC có thể xử lý bất kỳ sự bất thường nào trong tập dữ liệu hình ảnh bằng cách điều tra biên giới lớp của nó thông qua cơ chế phân tách lớp. Kết quả thực nghiệm cho thấy khả năng của DeTraC trong việc phát hiện các trường hợp COVID-19 từ một tập dữ liệu hình ảnh toàn diện được thu thập từ nhiều bệnh viện trên thế giới. Độ chính xác cao 93.1% (với độ nhạy 100%) đã được đạt được bởi DeTraC trong việc phát hiện hình ảnh X-quang COVID-19 từ các trường hợp bình thường và trường hợp hội chứng hô hấp cấp tính nặng.

#COVID-19 #X-quang ngực #mạng nơ-ron tích chập sâu #DeTraC #học chuyển giao
Học chuyển giao cho phân loại hình ảnh y tế: một bài tổng quan tài liệu Dịch bởi AI
BMC Medical Imaging - - 2022
Tóm tắtĐặt vấn đề

Học chuyển giao (TL) với mạng nơ-ron tích chập nhằm cải thiện hiệu suất trên một nhiệm vụ mới bằng cách tận dụng kiến thức từ các nhiệm vụ tương tự đã học trước đó. Nó đã đóng góp lớn cho phân tích hình ảnh y tế vì vượt qua vấn đề thiếu dữ liệu và tiết kiệm thời gian cũng như tài nguyên phần cứng. Tuy nhiên, học chuyển giao đã được cấu hình một cách tùy tiện trong phần lớn các nghiên cứu. Bài báo tổng quan này cố gắng cung cấp hướng dẫn cho việc chọn lựa mô hình và các phương pháp TL cho nhiệm vụ phân loại hình ảnh y tế.

Phương pháp

425 bài báo đã được đánh giá đồng nghiệp được thu thập từ hai cơ sở dữ liệu, PubMed và Web of Science, được xuất bản bằng tiếng Anh, cho đến ngày 31 tháng 12 năm 2020. Các bài báo được đánh giá bởi hai nhà nghiên cứu độc lập, với sự hỗ trợ của một nhà nghiên cứu thứ ba trong trường hợp có bất đồng. Chúng tôi đã tuân theo hướng dẫn PRISMA để chọn bài báo và 121 nghiên cứu được coi là đủ điều kiện cho phạm vi của bài tổng quan này. Chúng tôi đã khảo sát các bài báo tập trung vào việc chọn lựa các mô hình nền tảng và các phương pháp TL bao gồm bộ trích xuất đặc trưng, bộ trích xuất đặc trưng kết hợp, tinh chỉnh và tinh chỉnh từ đầu.

#Học chuyển giao #mạng nơ-ron tích chập #phân loại hình ảnh y tế #mô hình trích xuất đặc trưng
Đếm bông lúa mì bằng cách phân đoạn K-means clustering và mạng nơ-ron tích chập Dịch bởi AI
Plant Methods - - 2020
Tóm tắt Thông tin nền

Năng suất lúa mì bị ảnh hưởng bởi số lượng bông trên mỗi đơn vị diện tích, và phương pháp đếm thủ công từ lâu đã được sử dụng để ước lượng năng suất lúa mì. Để hiện thực hóa việc đếm bông lúa mì nhanh chóng và chính xác, phương pháp phân cụm K-means đã được áp dụng cho việc phân đoạn tự động hình ảnh bông lúa mì được ghi lại bằng các thiết bị cầm tay. Tập dữ liệu phân đoạn được xây dựng bằng cách tạo bốn thể loại nhãn hình ảnh: không phải bông lúa mì, một bông lúa mì, hai bông lúa mì và ba bông lúa mì, sau đó đã được đưa vào mô hình mạng nơ-ron tích chập (CNN) để đào tạo và kiểm tra nhằm giảm độ phức tạp của mô hình.

Kết quả

Độ chính xác nhận diện của không phải bông lúa mì, một bông lúa mì, hai bông lúa mì và ba bông lúa mì lần lượt là 99.8%, 97.5%, 98.07% và 98.5%. Mô hình R2 đạt 0.96, sai số bình phương gốc trung bình (RMSE) là 10.84 bông, điểm số F1 vi mô và F1 vĩ mô đều đạt 98.47%, và hiệu suất tốt nhất được quan sát thấy trong giai đoạn căng hạt cuối (R2 = 0.99, RMSE = 3.24 bông). Mô hình cũng có thể được áp dụng cho nền tảng UAV (R2 = 0.97, RMSE = 9.47 bông).

Kết luận

Việc phân loại hình ảnh đã phân đoạn thay vì nhận diện mục tiêu không chỉ giảm khối lượng công việc ghi chú thủ công mà còn cải thiện đáng kể hiệu quả và độ chính xác của việc đếm bông lúa mì, từ đó đáp ứng yêu cầu ước lượng năng suất lúa mì trong môi trường thực địa.

Nhận dạng khuôn mặt trong video bằng mạng nơ ron tích chập
Deep Learning là thuật toán dựa trên một số ý tưởng từ não bộ tới việc tiếp thu nhiều tầng biểu đạt, cả cụ thể lẫn trừu tượng, qua đó làm rõ nghĩa của các loại dữ liệu. Deep Learning được ứng dụng trong nhận diện hình ảnh, nhận diện giọng nói, xử lý ngôn ngữ tự nhiên. Hiện nay rất nhiều các bài toán nhận dạng sử dụng Deep Learning, vì nó có thể giải quyết các bài toán với số lượng lớn các biến, tham số kích thước đầu vào lớn với hiệu năng cũng như độ chính xác vượt trội so với các phương pháp phân lớp truyền thống, xây dựng những hệ thống thông minh với độ chính xác cao. Trong bài báo này, các tác giả nghiên cứu mạng nơ ron tích chập (CNN - Convolutional Neural Network) là một trong những mô hình Deep Learning tiên tiến cho bài toán nhận dạng khuôn mặt từ video.
#mạng nơ ron học sâu #mạng nơ ron tích chập #nhận dạng khuôn mặt
PHÁT HIỆN CHÁY RỪNG BẰNG MẠNG NƠ RON HỌC SÂU, DỰA TRÊN KHÓI VÀ LỬA THU NHẬN ĐƯỢC TỪ CAMERA GIÁM SÁT
Tạp chí khoa học và công nghệ - Tập 26 - Trang 92-99 - 2020
Mạng nơ ron học sâu được ứng dụng trong nhận diện hình ảnh, nhận diện giọng nói, xử lý ngôn ngữ tự nhiên. Hiện nay rất nhiều các bài toán nhận dạng sử dụng mạng nơ ron học sâu, vì nó có thể giải quyết các bài toán với số lượng lớn các biến, tham số kích thước đầu vào lớn với hiệu năng cũng như độ chính xác vượt trội so với các phương pháp phân lớp truyền thống, xây dựng những hệ thống thông minh với độ chính xác cao. Trong bài báo này, các tác giả nghiên cứu mạng nơ ron học sâu (CNN - Convolutional Neural Network)[1] cho bài toán phát hiện lửa cũng như khói bằng việc xử lí dữ liệu từ camera giám sát nhằm phát hiện, cảnh báo cháy rừng.
#Mạng nơ ron học sâu #mạng nơ ron tích chập #phát hiện cháy rừng
Nghiên cứu mô hình phát hiện rác thải nhựa ven biển sử dụng ảnh máy bay không người lái và mạng nơ-ron tích chập sâu
Rác thải nhựa tại các khu vực ven biển có nguồn gốc do các hoạt động của con người và đang trở thành mối nguy cho môi trường biển bởi số lượng lớn và khó phân hủy. Chúng đe dọa đến hệ động vật biển và phá hủy hệ sinh thái biển, gây ô nhiễm môi trường và làm giảm giá trị cảnh quan của bãi biển. Các chương trình giám sát và các biện pháp giảm thiểu đã được đưa ra để giải quyết vấn đề này trên toàn thế giới, với sự hỗ trợ ngày càng nhiều của công nghệ hiện đại và tự động hóa các quá trình phân tích. Hình ảnh từ máy bay không người lái (UAV) và mạng nơ-ron tích chập sâu (DCNN) có thể được sử dụng hiệu quả để phát hiện, xác định và giám sát loại rác thải nhựa ven biển. Nghiên cứu này đề xuất một thuật toán phát hiện rác thải nhựa ven biển dựa trên cách tiếp cận mô hình DCNN có khả năng học từ dữ liệu không có cấu trúc hoặc không được gắn nhãn. Mô hình học máy dựa trên mạng nơ-ron tích chập sâu đã được đào tạo và thử nghiệm bằng cách sử dụng 95 hình ảnh được chụp từ Phantom 4 Pro với camera loại CMOS 1 inch có độ phân giải 20MP khu vực ven biển Hội An (Quảng Nam). Kết quả cho thấy, độ chính xác trong phân loại hình ảnh rác thải nhựa ven biển và xác nhận chéo lần lượt là 0,87 và 0,83. Nghiên cứu nhằm cung cấp một cách tiếp cận mới cho các nhà nghiên cứu, nhà quản lý vùng ven biển có ý định sử dụng ảnh UAV để giám sát và đánh giá mối đe dọa môi trường từ các mảnh rác thải biển. Tuy nhiên, việc giám sát tự động vẫn là một thách thức về công nghệ và cần có những nghiên cứu thêm để cải thiện độ chính xác của các thuật toán hiện tại trong tương lai.
#rác thải nhựa #viễn thám #UAV #mạng nơ-ron tích chập #học sâu
MỘT TIẾP CẬN TÌM KIẾM ẢNH THEO NGỮ NGHĨA DỰA TRÊN MẠNG NƠ-RON TÍCH CHẬP VÀ ONTOLOGY
  Trích xuất ngữ nghĩa cho hình ảnh là một bài toán mang tính thời sự và được ứng dụng trong nhiều hệ thống tra cứu ngữ nghĩa khác nhau. Trong bài báo này, một tiếp cận tra cứu ngữ nghĩa hình ảnh được đề xuất dựa trên tập ảnh tương tự với ảnh đầu vào; từ đó, ngữ nghĩa của hình ảnh được tra cứu trên ontology qua tập từ vựng thị giác. Các đối tượng trên mỗi hình ảnh được trích xuất và phân lớp dựa trên mạng nơ-ron tích chập nhằm trích xuất ngữ nghĩa cho hình ảnh. Sau đó, câu lệnh SPARQL được tự động tạo ra từ các phân lớp ảnh và thực hiện truy vấn trên ontology đã được xây dựng nhằm truy xuất tập ảnh tương tự và ngữ nghĩa tương ứng. Trên cơ sở phương pháp đã đề xuất, một thực nghiệm được xây dựng và đánh giá trên các bộ ảnh Caltech-256. Kết quả thực nghiệm được so sánh với các công trình công bố gần đây trên cùng một bộ dữ liệu nhằm minh chứng tính hiệu quả của phương pháp đề xuất. Theo kết quả thực nghiệm, phương pháp tra cứu ngữ nghĩa hình ảnh trong bài báo này đã nâng độ chính xác lên 88,7% đối với bộ dữ liệu ảnh Caltech-256.
#phân lớp ảnh #mạng nơ-ron tích chập #truy vấn ảnh dựa trên ngữ nghĩa #ontology
PHƯƠNG PHÁP ƯỚC LƯỢNG GÓC NHÌN DỰA TRÊN ĐIỂM 3D ĐẶC TRƯNG KHUÔN MẶT VÀ ỨNG DỤNG GIÁM SÁT THI TRỰC TUYẾN
Ước lượng góc nhìn khuôn mặt (HPE) là một bài toán phức tạp đòi hỏi sự kết hợp giữa xử lý hình ảnh, thị giác máy tính và kỹ thuật học máy với các phương pháp hiện nay dựa trên mạng nơron tích chập (CNN) để xác định ánh xạ giữa không gian ảnh 2D và mô hình 3D khuôn mặt và xác định các góc nhìn. HPE được ứng dụng trong nhiều vấn đề thực tiễn và có ý nghĩa cao như các giám sát an ninh, phát hiện sự tập trung của lái xe, giám sát người học và thi trực tuyến,... Nghiên cứu này sử dụng mô hình CNN hiện đại để phát hiện các điểm đặc trưng khuôn mặt và đề xuất một phương pháp ước lượng góc nhìn khuôn mặt sử dụng thuật toán rừng ngẫu nhiên dựa trên các điểm đặc trưng 3D của khuôn mặt từ ảnh 2D để xác định góc nhìn của khuôn mặt trên ảnh đó. Kết quả thử nghiệm của phương pháp đề xuất trên bốn tập dữ liệu phổ biến đạt chất lượng tốt, cho sai số thấp nhất ở hai trong số 4 tập dữ khi so sánh các phương pháp. Chúng tôi đưa ra một thiết kế tích hợp giữa phương pháp đề xuất với hệ thống quản lý học tập trực tuyến nhằm hỗ trợ giám sát và đánh giá sự tập trung tham gia học tập và làm bài thi của người học.
#Giám sát thi trực tuyến #thị giác máy tính #mạng nơron tích chập #hồi quy rừng ngẫu nhiên
Tổng số: 48   
  • 1
  • 2
  • 3
  • 4
  • 5